Maratoni munka adatokkal – Sikeres hackathon az ELTE TáTK-n

2023.05.19.
Maratoni munka adatokkal – Sikeres hackathon az ELTE TáTK-n
Az ELTE TáTK Survey Statisztika és Adatanalitika MSc, a K-Monitor és az ELTE Data for Good kutatócsoport közös szervezésében került megrendezésre 2023. május 12-én a „Hackathon civil adatokkal” című verseny. A rendezvény iránti nagy hallgatói érdeklődést mutatja, hogy már az esemény előtt 2 héttel, túljelentkezéssel megtelt a program. A verseny napján végül az elsőként jelentkező 5 hallgatói csapat mérethette meg magát a hackathonon.

Egész napos hackathon a Campuson

Mint a hackathonok általában, ez az esemény is „maratoni” hosszúságú volt – a teljes program reggel 9-től este 9-ig tartott az ELTE Lágymányosi Campusán. A 3–4 fős hallgatói csapatoknak azonban így is gyorsan, intenzíven és összehangoltan kellett dolgozniuk, hogy a rendelkezésükre bocsátott adatokból estére egy átfogó feltáró elemzést mutassanak be a zsűrinek. 

A „Hackathon civil adatokkal” esemény célja elsősorban mégsem a hallgatók versenyeztetése volt, hanem az, hogy a résztvevők a nap végére gyakorlatot szerezzenek abban, hogyan lehet egy adott adatbázis kezeléséhez megtalálni a megfelelő adatelemzési technikákat, és informatív adatvizualizációs eszközökkel bemutatni az így kinyert összefüggéseket. 

A felhasználható adatbázisokat a Járókelő, a Periféria Központ, a K-Monitor és az ELTE TáTK-n működő két kutatócsoport, az ELTE Data for Good és a Survey Methods Room Budapest biztosította az eseményre regisztráló hallgatóknak.

Az 5 csapat a hackathon reggelén preferenciasorrendet állíthatott fel arról, hogy melyik adatbázissal, milyen témán szeretne leginkább dolgozni, és a szervezők ezt figyelembe véve párosították össze az ún. „adatgazdákat” a csoportokkal. Miután a hallgatók megismerkedtek az adatbázisok felépítésével, és elkezdték a munkát, folyamatos konzultációra volt lehetőségük az erre kijelölt mentorokkal, akik technikai és módszertani kérdésekben nyújtottak nekik segítséget. 

A hackathonra regisztráltak között legnagyobb arányban az ELTE TáTK survey statisztika és adatanalitika mesterszak hallgatói képviseltették magukat, de ELTE TáTK szociológia mesterszakra és ELTE TTK fizika alapszakra járó, illetve a Budapesti Corvinus Egyetemen alkalmazott közgazdaságtant tanuló résztvevői is voltak az eseménynek.

Fáró Jenő, survey statisztika és adatanalitika mesterszakos hallgató így fogalmazott a hackathonnal kapcsolatban:

„Nagyon vonzó volt benne, hogy itt adatokkal lehet foglalkozni, és úgy tekintettem rá, hogy biztos kihívást jelentő feladatok lesznek. Ha erre eljön az ember, akkor szükségszerűen rászánja az egész napot, és akkor abból biztosan ki fog jönni valami jó, valami tanulságos.”

Pósán Máté, a Budapesti Corvinus Egyetem alkalmazott közgazdaságtan szakos hallgatója pedig így mesélt arról, hogy csapattársa hogyan vette rá a jelentkezésre:

"Egy évfolyamtársam látott egy hirdetést, és megkérdezett minket, hogy szeretnénk-e részt venni a versenyen. Úgy gondoltuk, hogy végül is ezt tanuljuk, ezzel szeretnénk foglalkozni, tehát ez jó tapasztalat lesz. Nem nagyon kellett győzködni sem!”

Témák és megközelítések

A versenyt mind az öt csapat sikeres prezentációval zárta.

„A négy Jani” elnevezésű csapat (csapattagok: Hován Martin, Nyerges Márk, Német Ákos, Regős Tamás) a Jarokelo.hu oldal bejelentéseihez kapcsolódó adatbázisból dolgozott. Megállapították, hogy a bejelentések száma ugyan évről évre növekszik, ám a megoldatlan ügyek aránya viszonylag állandó (20-30%), illetve rámutattak, hogy vannak olyan személyek, akik egymaguk rengeteg bejelentést tesznek az oldalon (a legaktívabb felhasználó például többezer bejelentést tett már). Érdekes eredményként számoltak be róla, hogy a jobb helyzetű településeken, illetve a magasabb lakásárakkal bíró kerületekben hajlamosabbak bejelentést tenni a lakók. Kiderült még, hogy a Jarokelo.hu-t leginkább a budapestiek használják, viszont nincs különbség a főváros centrális és perifériás területei között, sem a bejelentések számát, sem a megoldott ügyek arányát tekintve. Felsorolták továbbá az adatok alapján a leghatékonyabb problémamegoldókat (Budapesti Közművek, Budapesti Dísz-és Közvilágítási Kft., Magyar Telekom), a leginkább megoldható ügyeket (elhagyott jármű, közvilágítás, szemét, közművek, graffiti), és azokat is, amelyeken a legritkábban tudnak segíteni az illetékesek (kátyú, járda, kerékpárút, parkolás, akadálymentesítés).

A „Férgek” elnevezésű csapat (csapattagok: Ecsedi Zsombor, Horváth Michelle, Molnár Dóra, Csaba Enikő) a Felzárkózó Települések, vagyis „FETE” programba bekerült és abból kimaradt településekkel foglalkozott a TáTK-s kutatócsoportok (ELTE Data for Good, Survey Methods Room Budapest) által biztosított nyilvános adatok segítségével. Kutatási kérdésük az volt, hogy ha ők készítenek el egy saját indexet a települések fejlettségéről informáló statisztikai mutatókból, akkor mekkora átfedés lesz az általuk leginkább fejlesztendőnek érzékelt 300 település, és a FETE programba végül bekerült „300 leginkább fejlesztendő” település között. (A kérdést logisztikus regresszió segítségével is vizsgálták, és bemutatták, hogy az általuk használt új index mennyire jelzi előre az állami programba való bekerülést.) Mint kiderült, a csapat saját készítésű indexe alapján leginkább fejlesztendő 300 település közül csak 126 került be a hivatalos FETE programba. A csapat rámutatott arra is, hogy ők több települést tartanának az indexük alapján fejlesztendőnek Baranyában és Zala megyében, mint amennyi a FETE programba került. Végül statisztikai mutatókkal jellemezték azokat a településeket, amelyek nem kerültek be a hivatalos programba, viszont a hackathonon elkészült index alapján a legelmaradottabbak között vannak.

A „Data for 4, 4 for data” elnevezésű csapat (csapattagok: Fáró Jenő, Lajos Hanka, Piros Anna Sára, Váradi Bendegúz) a K-Monitor sajtóadatbázisához kapott hozzáférést. A csapat igen kreatív megközelítését választotta az adatokkal való munkának. Elsősorban azt szerették volna kitalálni, hogyan lehetne megkönnyíteni a szervezet számára a cikkek archiválását, illetve a felhasználók számára a K-Monitor keresőjének használatát. Mivel tudták, hogy egy nap alatt nem tudnak elkészíteni egy olyan programot, amely lehetővé teszi a korrupcióval kapcsolatos összes megjelenő cikk felismerését és automatikus mentését, ezért gyártottak egy olyan programot, amely a már fellelt cikkek adataival egyből fel tudja tölteni az erre szolgáló űrlapot, hogy legalább ezt a munkafázist ne kelljen manuálisan végezni. A csapat a kereső rendszer fejlesztését is célul tűzte ki, így a rendelkezésre álló 53 ezer szöveget a csapattagok elemzés helyett gyakorlatilag tesztelésre használták fel. Azt szerették volna bemutatni, hogy a címkék szerepeltetésén túl érdemes volna "megtanítani" a keresőt arra, hogy mutasson kulcsszó-eloszlásokat, szófelhőket, topik-modelleket, és tudja jelezni két kulcsszó szemantikai közelségét is. 

A „Fizikus(ok)” elnevezésű csapat (csapattagok: Marcsó Kristóf, Für Dominik, Sarnyai Benedek) a K-Monitor által összegyűjtött, Elektronikus Közbeszerzési Rendszerben nyilvánosan elérhető közbeszerzési adatokból dolgozott, melyek között szerepel például a beruházások helye régió szerint, a közbeszerzések eredetileg becsült értéke, a szerződött érték, és a beszerzések tárgyát azonosító CPV kód. A csapat legfőbb kérdése az volt, vajon mi befolyásolja a becsült és a szerződött értékek eltérését, vagyis hogyan lesz jóval drágább a közbeszerzés annál az árnál, amit a kiírók terveztek. Az elemzésüket nehezítette, hogy a nyilvántartásból nem minden adat volt használható, így végül egy szűkített adatbázissal (az eredeti közbeszerzések 18%-a) dolgoztak. A közbeszerzéseket két kategóriába sorolták aszerint, hogy jelentősen különbözik-e a két érték, és megállapították, hogy a vizsgálatba bevont esetek háromnegyedénél nincs jelentős eltérés. A logisztikus modell eredményei szerint leginkább az „üzleti” CPV kód megléte meghatározó: Kétszer akkora a valószínűsége az ilyen típusú beszerzéseknél annak, hogy jelentős eltérés lesz a becsült és a szerződött érték között. Ennek egy lehetséges magyarázata lehet, hogy az üzleti típusú közbeszerzéseknél a piaci környezet változékonyabb és ezért nehezebb előre „látni” a költségeket. További elemzést kíván, hogy milyen hatása van a budapesti beruházási helyszínnek, mivel ez a változó (fővárosi-e a beruházás) erősen összefügg az "üzleti" CPV kóddal.

A "Keltikék" elnevezésű csapat (csapattagok: Gedeon Anna, Pósán Máté, Nagy Balázs) a Magyar Bírósági Végrehajtói Kar adatbázisát kapták elemzésre a Periféria Központtól, és ezt az ingatlan árverések elemzésére használták fel. Kontextusba helyezve a problémát, megemlítették, hogy a magyarországi lakásállomány európai összehasonlításban rossz állapotúnak mondható, és az alacsony jövedelműek fokozottan ki vannak téve annak, hogy rossz körülmények között lakjanak, illetve az energiaárak növekedése miatt egyre inkább annak is, hogy adósságuk legyen. A csapat szerint a felhasznált adatbázis ezt az elképzelést erősítheti meg azzal, hogy nagyobb számban jelennek meg benne a kisebb értékű ingatlanok, melyeket feltételezhetően az alacsonyabb jövedelmű adósok vesztenek el. A hallgatók legfőképpen azon dolgoztak, hogy a téma iránt érdeklődők ne csak az árverezésre bocsátott ingatlanok elhelyezkedését tudják megnézni egy statikus térképen, hanem álljon rendelkezésükre egy olyan interaktív térkép, amelynek segítségével több változó szerint is szűrni lehet az ingatlanokat – például aszerint, hogy melyik évben kezdődött el az intézkedés az ingatlan tulajdonosa ellen, milyen magas a kikiáltási ár, illetve hogyan viszonyul a kikiáltási ár az eladási árhoz. 

A zsűri döntése

A zsűri tagjai a szereplés sorrendjében adtak részletes visszajelzést az összes csapatnak, és csak ezután jelentették be (az egyébként konszenzussal meghozott) döntést a helyezésekről. 

Első helyen végzett a „Férgek” csapata. A zsűri megítélése szerint alaposan végiggondolt módon elemezték a témát (FETE program), a kérdéseikhez jól illeszkedő módszereket választottak, és átlátható ábrákkal, különösen szép dizájnnal rendelkező prezentációt mutattak be.
A második helyet „A négy Jani” szerezte meg. A zsűri szerint nem túl bonyolult módszerekkel ugyan, de nagyon érdekes és informatív prezentációt mutattak be (Jarokelo.hu), ügyesen megfeleltek a legfontosabb értékelési szempontoknak. 
Harmadik helyen végzett a „Data for 4, 4 for data” csapat. A zsűri náluk azt emelte ki, hogy bár a projektjük nem volt elég fókuszált, fontosnak tartják, hogy óriási potenciál rejlik az elhangzott ötletekben, nagyon sok szervezet tudná alkalmazni a mindennapokban azokat az eszközöket, amelyeket kitaláltak (sajtóadatbázis keresőjének a fejlesztése), ha a későbbiekben tovább dolgoznának még ezeken.
Különdíjat kapott a „Keltikék” és a „Férgek” csapata is, mivel a különdíj felajánlója, Antal Dániel (a Reprex BV alapítója) úgy vélte, hogy mindkét bemutatott projekt (ingatlan árverések, fejlesztendő települések) folytatásra érdemes az adatgazda együttműködésével.

Az összes, versenyen résztvevő hallgatónak ezúton is gratulálunk! A helyezettek nyereményként Minkó Mihály adatvizualizációs képzését vehetik igénybe, hogy tovább fejlődhessenek ezen a területen.

Az esemény főszervezői voltak:

Az esemény mentorai voltak:

A zsűri tagjai voltak:

Hackathon 2023

Hackathon 2023

0

/

0

0

/

0